Например, Бобцов

Обнаружение вредоносного домена на основе естественного языка с использованием машинного обучения и глубокого обучения

Аннотация:

В настоящие время количество кибератак постоянно увеличивается, и борьба с ними остается сложной задачей. Киберпреступники используют различные стратегии для манипулирования и использования уязвимостей своих целей. Вредоносные URL-адреса — одна из таких стратегий, которая ориентирована на большие группы пользователей, находящихся в социальных сетях. В Интернете для привлечения пользователей преступники маскируют URL-адреса под безопасные. Преднамеренное или непреднамеренное использование таких URL-адресов подвергает опасности пользователя или организацию в киберпространстве и открывает путь для дальнейших атак. Системы, которые используют алгоритмы на основе правил или машинного обучения для поиска вредоносных URL-адресов, обычно полагаются на применение специальных функционалов. Это требует знания предметной области и опыта. Вместе с тем даже при извлечении опасных признаков из набора данных их потенциал может быть применен не полностью. В работе предложено использовать обработку естественного языка (Natural Language Processing, NLP) для векторизации слов в URL-адресах, а также моделей машинного и глубокого обучения для их классификации. Техника векторизации при обработке естественного языка позволяет снизить усилия по разработке признаков и максимально использует набор данных. Для эксперимента применены два набора данных, а для векторизации текста URL — три метода. Результаты эксперимента показали, что модели дерева решений (Decision Tree, DT) и метода случайного леса (Random Forest, RF) достигли точностей 99,4 % и 99,3 % с использованием машинного обучения с векторизаторами Count и Hash. Модели DT и метода опорных векторов (Support Vector Machine, SVM) обеспечили высокую точность 99,5 % с использованием меры Term Frequency-Inverse Document Frequency (TF-IDF). В модели глубокого обучения нейронной сети (Artificial Neural Network, ANN) получена точность 99,2 %, что выше в сравнении с использованием сверточной нейронной сети (Convolutional Neural Network, CNN).

Ключевые слова:

Статьи в номере